home *** CD-ROM | disk | FTP | other *** search
/ InfoMagic Internet Tools 1995 April / Internet Tools.iso / infoserv / www / cern / dev / www-talk.9301-9306.Z / www-talk.9301-9306 / text0577.txt < prev    next >
Encoding:
Text File  |  1995-04-24  |  977 b   |  21 lines

  1. >I have written a robot that does this, except it doesn't check for
  2. >valid SGML -- it just tries to map out the entire web.  I believe I
  3. >found roughly 50 or 60 different sites (this was maybe 2 months ago --
  4. >I'm sorry, I didn't save the output).  It took the robot about half a
  5. >day (a saturday morning) to complete.
  6.  
  7. If you do run your robot again I would be very interested if you could 
  8. generate a simple list of document titles and their corresponding 
  9. document id's (or URL's). We have a powerful spires database here, 
  10. interfaced to the web, which we could easily import such a file into to 
  11. great a VERONICA like index of the web. I think that would be pretty 
  12. useful (unless someone is already doing it??).
  13.  
  14. One other problem to add to you list.....many documents are probably 
  15. only accessible by giving a "keyword" . Unless you can write a robot 
  16. which can successfully guess all possible keywords, you cannot 
  17. gaurantee to be able to traverse the whole web.
  18.  
  19. Tony
  20.  
  21.